بهبود دسته بندی اتوماتیک متن به کمک پروفایلینگ: سیسیتم gnp

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
  • نویسنده حسین اسکندر
  • استاد راهنما محمدرضا مطش بروجردی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1387
چکیده

یکی از رویکردهای مهم در دسته بندی متن، استفاده از پارادیم یادگیری ماشین می باشد. در این رویکرد، نمایش متون و الگوریتم دسته بندی، دو عنصر اساسی برای دسته بندی بهینه متون به شمار می آیند. در طی سه دهه گذشته، روشهای گوناگونی هم در زمینه نمایش متون و هم در زمینه الگوریتمهای دسته بندی معرفی شده است که در بخش اول و دوم این نوشتار به طور اجمالی به بررسی آنها می پردازیم. برخلاف تمامی رویکردهای پیشین دسته بندی متن که بطور مستقیم، لغات یا عبارات داخل متون را به بردارهای متناظرشان نگاشت می کنند، در این پروژه برای بدست آوردن این بردارها، از یک الگوریتم یادگیری استفاده شده است که آنرا gnp (generalized noun phrase) می نامییم. اساس این رویکرد از یک پروسه عمومی سازی/اختصاصی سازی بر روی عناصر بردار پیروی می کند. از آنجاییکه در یک جمله، عبارات اسمی از بار معنایی به نسبت بالایی برخوردار می باشند، از عبارات اسمی بعنوان عناصر سازنده این بردارها استفاده شده است. بدین ترتیب می توان یک رابطه شمول بر روی کلمات تشکیل دهنده آن عبارت اسمی تعریف کرد. همچنین در این پروژه به معرفی خوشه های مستتر در هر دسته پرداخته شده است که متناسب با هر خوشه، پروفایلی تعریف می کنیم که شامل عبارات اسمی متعلق به متون آن خوشه می باشد. این پروفایلها در واقع مبنای شروع این روش یادگیر بشمار میرود. با بکارگیری از دو فرآیند عمومی سازی و اختصاصی سازی در یک استراتژی موفق که جزییات آن را بیشتر ملاحظه خواهید کرد، می توانیم عبارات اسمی موجود در هر پروفایل را بر حسب نیاز خلاصه/بسط دهیم. حاصل این عملیات، یادگیری عباراتی است که بهتر می توانند دسته متناسب با خود را توصیف کنند. بدین ترتیب با گنجاندن عبارات اسمی غنی شده متعلق به یک دسته در یک بردار می توانیم آنرا به یکی از دسته بندی کننده های متعارف عرضه کرد تا با استفاده از آن بتوان متون تست را برچب بزند. از آنجاییکه که رویکرد gnp وابسته به دسته بندی کننده خاصی نیست، میتوانیم از هر کدام از الگوریتم های دسته بندی متن متعارف استفاده کنیم. بدین ترتیب ما در این پروژه از دو دسته بندی کننده k- امین نزدیکترین همسایه (k-nn) و ماشین بردار پشتیبان (svm) بعنوان دسته بندی کننده استفاده کرده ایم که نتایج آن بر روی مجموعه داده های 20-newsgroups بقرار ذیل می باشد : ارتقای دقت دسته بندی gnp مبتنی بر k-nn نسبت به k-nn متعارف، بر اساس دو معیار ارزیابی macro-fl و micro-fl مقادیر بترتیب از 72? به 5/84? و از 5/69? به 82? ارتقاء می یابد. همچنین اعمال رویکرد gnp با استفاده از دسته بندی کننده svm، نتیجه مشابهی را نسبت به svm استاندارد بهمراه دارد : ارتقای دقت دسته بندی بر اساس دو معیار ارزیابی macrp-fl و micro-fl به ترتیب از 6/83? به 03/91? و از 63/78? به 32/88? حاصل می شود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بهبود دسته بندی چندبرچسبی به کمک شبکه های عصبی

امروزه با افزایش حجم داده ها امکان جمع آوری و دسته بندی سریع داده ها توسط انسان غیرممکن شده است و نیاز به دسته بندی و تحلیل دادها به صورت خودکار از جایگاه ویژه ای برخوردار است. دسته بندی داده ها عملیاتی است که ابتدا، طی یک فرایند ، نمونه های آموزشی به همراه برچسب آن ها به یک عامل یادگیر داده می شود تا ارتباط بین نمونه ها و برچسب ها را یاد بگیرد و سپس برچسب داده های آموزشی را پیش بینی کند. از ط...

بهبود کارایی دسته بندی متن بر مبنای ویژگیها و متون دسته بندی شده مشابه

در یادگیری ماشین، داده های آموزشی نقش مهمی را در تعیین کارایی الگوریتم یادگیری ایفا می کنند. تعداد این داده های آموزشی در طول زمان افزایش می یابد وداده های جدیدی از راه می رسد. این داده های جدید، ممکن است دید جدیدی از داده های قبلی را ارائه دهند یا توزیع آماری داده ها را تغییر دهند. از این رو، فهمیدن اهمیت داده های جدید و اجازه به این داده ها، برای نقش داشتن در آموزش، به منظور افزایش کارایی سیس...

15 صفحه اول

تأثیر ویژگی‌های روانشناختی مشتریان بر دسته بندی و انتخاب برند به کمک رویکرد بیزین

The present study explores the effect of customer's psychological characteristics on brand selection, with emphasis on product characteristics. The statistical population of this study is consumers of dairy products in the city of Tehran. Since the size of the unlimited society and the variance of the society are unclear, the sampling formula for the unlimited society is used based on which the...

متن کامل

بهبود تفسیر داده های لرزه ای به کمک روش اتوماتیک بازترکیب طیفی

پالایه های فرکانسی به منظور تقویت محدوده های فرکانسی خاصی از طیف دامنه ی داده های لرزه ای و در نتیجه، بهبود نمایش ساختارهای متناظر با این محدوده ها صورت می گیرد. فرآیند پالایه کردن داده های لرزه ای می تواند در مراحل مختلف تفسیرهای ساختمانی و چینه ای مفید باشد. عموماً مفسر لرزه ای پالایه ی مدنظر خود را از روی طیف دامنه داده ی لرزه ای طراحی می کند که این کار بیشتر مبتنی بر تجربه ی مفسر است. در این...

متن کامل

حذف ناحیه کور در تصاویر سونار و دسته بندی اهداف با کمک ویژگی های ساختاری شکل

نقش دریاها و در کنار آن خطرات انسانی موجود در اعماق آن‌ها باعث شد که هشداردهنده‌ها و آشکارسازهای بستر دریا ازجمله سونار موردتوجه محققین قرارگرفته و به‌عنوان یکی از زمینه‌های مهم تحقیقاتی مطرح شوند. در این مقاله، روشی جدید برای پردازش تصاویر سونار و حذف ناحیه کور در تصاویر سونار اسکن جانبی معرفی شد. در روش پیشنهادی، با استفاده از الگوریتم تجانس فاز و ویژگی‌های ساختاری شکل، ناحیه کور حذف و تشخیص ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023